Alteryx DesignerとTableau Desktopを使って自身のブログを可視化してみた
こんにちは、スズです。
Alteryx Designerを使ってWebスクレイピングでブログのデータを作り、Tableau Desktopで可視化してみました。
執筆環境
本記事では以下の環境を使用しています。
- Alteryx Designer 2021.3.2
- Tableau Desktop 2021.4.3
- Windows 10 Pro
Alteryx Designerでデータを作成
ブログ一覧を取得するマクロ
まずはAlteryx Designerを使って自身のブログのデータを作成します。DevelopersIOの執筆者のページではその執筆者のブログの一覧が表示されますので、自身のページからブログの一覧を取得してデータを作成していきます。今回は9ページまでありましたので、9ページ分のブログの一覧を取得するために反復マクロを使用します。
作成した反復マクロはこちら。この反復マクロでは、入力されたURLからダウンロードツールでデータを取得たものを出力、反復する際にURLを更新し、反復の回数が9になるまで繰り返します。URLは「page=1」となっている部分の数字を更新していきます。
ブログ一覧の取得とデータの作成
作成した反復マクロを使ってブログの一覧のデータを取得し、Tableau Desktopで可視化できるようにデータを整えます。
ワークフローの全体図はこちら。
作成したワークフローについて、いくつかポイントを紹介していきます。反復マクロで取得したデータは以下のようになっています。
「DownloadData」列が使用したいデータになりますが、1つの値に集約されていますので列分割ツールを使って値を分割します。また、フィルターツールを使って、ブログのタイトルと執筆日が含まれている値のみ残しておきます。
ブログの執筆日とタイトルが列になるように持ち方を直してから、各ブログがそれぞれどの製品についてのブログであるかのデータを作成していきます。今回は、ブログのタイトルにある製品名ごとに0または1を出力しています。今回の場合、ブログのタイトルからデータを作成しているため、レポートブログなどブログのタイトルに製品名がない場合はカウントされません。また、AlteryxとZendeskのように、1つのブログで複数の製品を扱っている場合もあり、その場合はそれぞれの製品がカウントされるようになっています。
各製品ごとに0または1を出力していた列を、製品名の列と0または1を出力した列に持ち方を直して、これでデータは完成とし、.hyperファイルに出力します。
Tableau Desktopで可視化
作成したデータを使ってTableau Desktopで可視化してみます。まずは各製品ごとの割合をツリーマップで見てみます。Alteryxのブログが多いことが一目瞭然ですね。
年に分けて、製品ごとのブログの本数を積み上げ棒グラフで見てみます。どの年もAlteryxのブログが一番多いようですが、2018年がAlteryxのブログしか書いていなかったことに比べると、Alteryx以外の製品を書くことが増えていることが分かります。
各年月でブログの本数を棒グラフで見てみます。2019年のQ3からQ4を境にして、月ごとのブログの本数の傾向が変わっているように見えます。
年で色分けして折れ線グラフで表示してみます。12月はどの年もブログの本数が増加する傾向にあるように見えますが、時期的にアドベントカレンダーの影響というのが想像できます。
さいごに
Alteryx DesignerとTableau Desktopを使って自身のブログを可視化してみました。書いているのはほとんどAlteryxの記事ということや以前に比べるとブログの本数が減っていることは、もちろん自分で認識している部分でしたが、可視化することで実感することができました。またしばらく時間が経ったのち、ブログの執筆状況を可視化してみたいと思います。